\documentclass{article}
\usepackage[UTF8]{ctex}
\usepackage{geometry}
%\usepackage{biblatex}
\geometry{left=3.18cm,right=3.18cm,top=2.54cm,bottom=2.54cm}
\usepackage{graphicx}
\pagestyle{plain}	
\usepackage{setspace}
\usepackage{caption}
\usepackage{datetime} %日期
\usepackage{color}
\usepackage{booktabs} 
\usepackage{float}
\usepackage{hyperref}
\usepackage{tablefootnote}
\usepackage{footnotehyper}

\usepackage{amsmath}  %使用宏包，这里使用的是调用公式宏包，可以调用多个宏包
\usepackage{multicol}  %分栏
\usepackage{ragged2e}   %与justifying指令实现两端对齐
\usepackage{amsthm}
\usepackage{subfigure}   %子图包
\usepackage[justification=centering]{caption}
\usepackage{fancyhdr}
\usepackage{indentfirst} %添加作者信息
\usepackage{geometry}
\geometry{a4paper,scale=0.8}    %改变页边距
\usepackage{listings}
\usepackage{xcolor}

\usepackage{url}
\usepackage{diagbox}
\usepackage{caption}
\usepackage{multirow}

\hypersetup{colorlinks, linkcolor = {blue} }
\captionsetup{figurename={\songti 图}}
\renewcommand{\today}{\number\year 年 \number\month 月 \number\day 日}
\renewcommand{\captionlabelfont}{\small}
\renewcommand{\captionfont}{\small}
\lstset{
	%backgroundcolor=\color{red!50!green!50!blue!50},%代码块背景色为浅灰色
	rulesepcolor= \color{black}, %代码块边框颜色
	breaklines=true,  %代码过长则换行
	%numbers=left, %行号在左侧显示
	%numberstyle= \small,%行号字体
	keywordstyle= \color{blue!70!black}\textbf,%关键字颜色和加粗
	commentstyle=\color{green}, %注释颜色
	frame=single
}

%这两行改变页边距
\newtheorem{thm}{定理}[section]       
\newcommand\degree{^\circ}   
\newcommand{\enabstractname}{abstract}
\newenvironment{enabstract}{%
	\quotation
	\par\small
	\mbox{}\hfill{\bfseries \enabstractname}\hfill\mbox{}\par
	\vskip 2.5ex}{\par\vskip 2.5ex}    

\begin{document}


% 在这之前是封面，在这之后是正文
\section{数据分析认知}
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。\par
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来，从而找出所研究对象的内在规律。在实际应用中，数据分析可帮助人们做出判断，以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据，使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期，包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程，以提升有效性。例如设计人员在开始一个新的设计以前，要通过广泛的设计调查，分析所得数据以判定设计方向，因此数据分析在工业设计中具有极其重要的地位。\par
毫无疑问, 由于计算机处理技术发生着日新月异的变化, 人们处理大规模复杂数据的能力日益增强, 从大规模数据中提取有价值信息的能力日益提高, 人们将会迅速进入大数据时代。数据时代, 不仅会带来人类自然科学技术和人文社会科学的发展变革, 还会给人们的生活和工作方式带来焕然一新的变化。是一门及其重要的技术！

\section{项目概述}
项目主要依托一个蓟门桥路段的交通流数据进行分析和可视化处理，通过针对流量和车道占有率随时间的变化关系，进行周末和周内的差异化对比，得出周内和周末交通流情况的区别。\par
我们进行了流量和占有率的相关关系拟合，通过散点图观察原始数据，并采用多种流量密度模型对其进行拟合，分析了拟合模型的精确度，得出了可靠的结论。
通过对交通流数据进行分析处理，我们可以以数据为依托，从而更好的指导交通建设，做到“有数据可说“使得数据分析的价值得以展现。

\section{项目流程图}
\includegraphics[scale=0.6]{liu.png}

\section{项目具体内容}
\subsection{数据预处理}
\subsubsection{数据展示}
\begin{table}[H]
	\centering
	\caption{各车道流量和占有率时序图整合表}
	\begin{tabular}{m{8cm}<{\centering}  m{8cm}<{\centering} }
		\hline
		外环  & 内环   \\
		\hline
		1车道 & 11车道 \\
		\includegraphics[width=7cm]{img1.png}  &  \includegraphics[width=7cm]{img2.png}  \\
		\hline
		2车道 & 12车道 \\
		\includegraphics[width=7cm]{img3.png}  &  \includegraphics[width=7cm]{img4.png}  \\
		\hline
		3车道 & 13车道 \\
		\includegraphics[width=7cm]{img5.png}  &  \includegraphics[width=7cm]{img6.png}  \\
		\hline
	\end{tabular}
\end{table} 
\subsubsection{数据清洗}
为了彻底清洗数据，利用箱线图分析来剔除异常数据，如图 1,图 2

\begin{figure}[H]
	\centering
	\includegraphics[scale=0.4]{pic1.png}
	\caption[123]{3月10日周六流量和占有率箱线图注}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.4]{pic2.png}
	\caption[123]{3月11日周日流量和占有率箱线图注}
\end{figure}

从箱线图中可以看出，数据中存在许多异常值，我们将这些异常值剔除后得到最终清洗完全的数据。在进行流量和占有率时序分析时，为更清楚直观的观察变化规律，我们对数据进行了均值滤波处理。\par

\subsection{周末流量—占有率分析}
\subsubsection{变化趋势}

首先将数据进行可视化，分别做出流量和占有率在2个周末的折线图，以此来观察随时间变化的大致趋势。\par
3月10日（周六）:图 3-图 6\par
3月11日（周日）:图 7-图 10\par

\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic3.png}
	\caption[123]{3月10日周六外环1车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic4.png}
	\caption[123]{3月10日周六内环11车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic5.png}
	\caption[123]{3月10日周六内环12车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic6.png}
	\caption[123]{3月10日周六内环13车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic7.png}
	\caption[123]{ 3月11日周日外环1车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic8.png}
	\caption[123]{3月11日周日内环11车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic9.png}
	\caption[123]{3月11日周日内环12车道流量和占有率折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic10.png}
	\caption[123]{3月11日周日内环13车道流量和占有率折线图}
\end{figure}
通过观察不难得出，在周末时，凌晨0时至6时各车道流量和占有率处于非常低的状态，6时开始流量和占有率出现明显上升的趋势，此后在上午9时至11时出现峰值，随后保持在较高水平直至下午17时下降至较低的水平。在周末这4天中流量总体成字母M的趋势。流量的变化规律几乎与占有率相同，也是呈随时间先增后减、多峰值趋势\cite{ref3}。\par
\subsubsection{散点图绘制}
接下来我们画出流量和占有率分布散点图（图 12）进行进一步的分析：\par
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic11.png}
	\caption[123]{3月10日周六流量和占有率散点图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.35]{pic12.png}
	\caption[123]{3月11日周日流量和占有率散点图}
\end{figure}
\subsubsection{曲线拟合}
考虑到交通流领域以下3种流量-密度模型：

（1）抛物线型流量-密度模型（Greenshields，格林希尔治流量-密度模型）
$$ q = ku = ku_{f}(1 - \frac{k}{k_{j}}) = u_{f}k - \frac{u_{f}k^{2}}{k_{j}}  $$
此为最经典的模型，使用较广。\par

（2）对数流量-密度关系模型（Greenberg，格林伯模型）
$$ q = ku = ku_{m}ln(\frac{k_{j}}{k}) $$
适用于较大密度范围的模型。\par

（3）指数流量-密度关系模型（Underwood，安德伍德模型）
$$ q = ku_{f}e^\frac{-k}{k_{m}} $$
适用于较小密度的模型。\par

由于所给数据密度（占有率）不算很大，故拟合时只考虑采用Greenshields模型合Underwood模型来进行散点数据的拟合\cite{ref1}，结果如图 13,图 14所示：\par

\begin{figure}[H]
	\centering
	\includegraphics[scale=0.4]{pic13.png}
	\caption[123]{3月10日周六流量和占有率关系拟合结果}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.4]{pic14.png}
	\caption[123]{3月11日周日流量和占有率关系拟合结果}
\end{figure}
观察上述拟合结果图可知，在占有率较低的时候，采用2种方法拟合的效果均较为显著，拟合效果极佳。但是当占有率逐渐增大（高于20$\%$）时，Greenshields模型便出现了较大的偏差，拟合效果显著降低；而Underwood模型在占有率逐渐增大（高于20$\%$低于30$\%$）时拟合效果依然显著，高于30$\%$后出现一定的偏差，高于40$\%$时Underwood模型拟合效果显著降低。总体来看，选择Underwood模型来进行拟合更为合适\cite{ref4,ref5}。
\subsubsection{拟合效果检验}
对模型拟合效果进行检验，检验结果如表 2所示：\par
\begin{table}[H]
	\centering
	\caption{流量和占有率关系拟合效果检验}
	\begin{tabular}{m{2cm}<{\centering}  m{1.5cm}<{\centering} m{2.5cm}<{\centering}  m{2.5cm}<{\centering}  m{2.5cm}<{\centering}  m{2.5cm}<{\centering}  }
		\hline
		日期      & 模型   & 相关性系数$R^2$ & 残差平方和RSS        & 均方误差MSE      & 均方根误差RMSE \\
		\hline
		\multirow{3}*{3月10日周六} & 抛物线型 & 0.70631 & 284744188.72346 & 110709.24911 & 332.72999 \\
		& 对数型  & \multicolumn{4}{c}{无法拟合}                             \\
		& 指数型  & 0.85249 & 143009901.55916 & 55602.60558  & 235.80205 \\
		\hline
		\multirow{3}*{3月11日周日} & 抛物线型 & 0.84074 & 155913574.30611 & 60151.84194  & 245.25872 \\
		& 对数型  & \multicolumn{4}{c}{无法拟合}                             \\
		& 指数型  & 0.88601 & 111599723.01329 & 43055.44869  & 207.49807\\
		\hline
	\end{tabular}
\end{table} 
由表2分析可知，对于2天中的任意一天，指数型（Underwood模型）的拟合效果均优于抛物线型（Greenshields模型），它具有更高的相关性系数值，说明相关性更强；同时Underwood模型的RSS,  MSE,  RMSE也更小，说明了拟合误差更小\cite{ref2}。从数理统计角度进一步印证了本次作业数据选用Underwood模型来拟合效果更佳\cite{ref5}。\par


\subsection{周末与工作日流量对比分析}
我们选择将2012年3月7日（周三）的数据与3月10日（周六）和3月11日（周日）的数据进行对比分析，针对3月7日周三的数据按照PART Ⅰ中所述方法删除异常值，并作出相关对比曲线，如下图 15-图 16所示：\par

\begin{figure}[H]
	\centering
	\includegraphics[scale=0.8]{pic15.png}
	\caption[123]{周末与工作日流量对比折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.8]{pic16.png}
	\caption[123]{周末与工作日占有率对比折线图}
\end{figure}

在图 17-图 18展示了原始数据所形成的折线图，可以看出，我们的数据处理方式在有效保证了实验结果的准确性的同时，使得折线图易于观察。\par

\begin{figure}[H]
	\centering
	\includegraphics[scale=0.8]{pic17.png}
	\caption[123]{周末与工作日流量对比折线图}
\end{figure}
\begin{figure}[H]
	\centering
	\includegraphics[scale=0.8]{pic18.png}
	\caption[123]{周末与工作日占有率对比折线图}
\end{figure}

显而易见的是，周三的曲线在早7-9时以及晚17-19时具有非常明显的早晚高峰出行的特性，周末的曲线不具备这类特征。同时，周三的曲线在非高峰时间段几乎都处于周末曲线的下方，这体现了周末人们对于出行时间选择具有随机性的特点，出行流量较为平均，没有较大的波动，只存在小而多的峰值。\par

\section{项目亮点}
本项目依托于交通流真实数据进行分析，对交通控制与管理有指导意义\par
	\subsection{ 亮点1:采用多种图表进行可视化}
	我们学习python可视化库的多种方法，在实验中绘制了折线图观察趋势，使用了箱线图进行数据清洗，使用散点图观察数据，并进行了曲线拟合
	\subsection{ 亮点2:流量密度模型的使用}
	我们学习并利用了三种（最后使用两种）流量-密度模型进行数值拟合，并对其拟合效果进行了统计分析，得出了可靠的结论
	\subsection{ 亮点3:均值滤波平滑方法}
	本实验采用了均值滤波的方式进行数据清洗，并绘制了拟合曲线，在4.3中可以看到，我们的处理方式有效保存了数据的完整度和变化趋势并降低了噪声，更有利于数据的观察。


\section{课程建议}
\begin{enumerate}
	\item 老师的讲课方式生动、易于接受，并且老师可以更好地与学生进行交流，但是师生间的互动还需要加强。
	\item 老师设计的课堂及课后实验的形式非常切合我们的学习痛点，真的学到了很多！
\end{enumerate}

\section{总结}
眨眼一个学期过了，在这一学期中开设了《数据分析Python》通过老师的讲解和自己上机的实际操作，我学到了很多关于Python的知识及应用，收获颇丰，虽然之前自以为对Python的都有了解，但通过学习才知道自己了解的还是太少了。只有通过学习才能知道自己的不足，而通过这一学期Python的学习正好弥补了自己的不足。虽然还有很多地方掌握的不是很好，但以后我会通过不断地练习去慢慢掌握。通过这一学期的学习，我通过结合自己本身有了几点总结：\par
1.眼高手低，重在实践;\par
在实际学习中对一些，Python的高级应用操作理解起来很困难的，从整体上很把握应用软件，不是仅仅靠阅读书本上的知识就能知道的，还要在互联网上不断搜索信息，才能解决不断出现的问题！！因此我们平时不仅要多做练习、记笔记，还要应用到实际中去，只有平时多多应用，才不会书到用时方恨少！\par
2 .丰富知识，学习交流;\par
要多了解相关知识，多思考，多提问题，多问几个为什么，要学以致用，Python使学习、生活、工作的资源消耗大为降低。不过有时也要动我们的脑子，要个人亲身去体会，去实践，把各项命令的位置、功能、用法记熟，做熟!\par
3. 提高能力，打好基础；\par
要多去参加GitHub上的一些开源项目，了解现在Python工业化的具体实现方法，亲身体验，实地考察！为日后的深入学习和工作打下坚实的基础！


\begin{thebibliography}{99}  
	
	\bibitem{ref1}俞洁,杨成斌.交通流理论发展分析[J].合肥工业大学学报(自然科学版),2004(02):163-167
	\bibitem{ref2}孟鸿程,陈淑燕.交通流缺失数据处理方法比较分析[J].交通信息与安全,2018,36(02):61-67.
	\bibitem{ref3}姜晓睿,田亚,蒋莉,梁荣华.城市道路交通数据可视分析综述[J].中国图象图形学报,2015,20(04):454-467.
	\bibitem{ref4}Statistics with applications to highway traffic analysis: Bruce D. Greenshields and Frank M. Weida, Revised by Daniel L. Gerlough and Matthew J. Huber, Eno Foundation for Transportation, Westport, CT 06880, U.S.A.,Transportation Research Part A: General,
	\bibitem{ref5}Fitting ALS Reflectance Data Using Python，R. Steven Turley，Brigham Young University
	
\end{thebibliography}

\end{document}
